刘颖 谷佳琪:个人信息去身份化及其制度构建
2020年3月,我国发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据纳入生产要素范畴。2020年7月,联合国国际贸易法委员会第53届会议探讨了包括数据交易在内的与数字经济相关的法律问题。个人数据(个人信息)是数据的重要组成部分,兼具人格价值和财产价值。为了兼顾数据主体利益和数据资产价值,欧盟《一般数据保护条例》规定了个人信息匿名化和假名化制度及客观合理的判断标准。美国建立了个人信息去身份化制度。长期以来,针对敏感信息的特殊性,美国在联邦层面制定了特别法案。美国《健康保险流通与责任法》规定了专家判断标准和安全港标准。2020年1月实施的《加利福尼亚州消费者隐私保护法》对包括数据利益在内的消费者隐私提供了全面的保护。我国《民法典》将个人信息纳入人格权编,初步建立了个人信息保护与利用制度。2020年10月公布的我国《个人信息保护法(草案)》中有关于个人信息匿名化和去标识化的规范。我国《个人信息保护法(草案)》应从三个方面进行完善:第一,采用“个人信息去身份化”的概念,规定“去身份化,是指个人信息去除或改变标识符无法识别特定自然人身份的过程”;第二,采用“假名化”的概念而不采用“去标识化”的概念;第三,规定“去身份化法律标准为第三人采取一般合理手段无法识别自然人身份”,即采用客观合理标准。
个人信息去身份化及其制度构建
撰文|刘颖 谷佳琪
刘颖,深圳大学法学院访问教授,暨南大学法学院教授、博士生导师;
谷佳琪,湖南省衡阳市中级人民法院法官助理。
随着计算机及通讯技术的飞速发展,涌现了云计算、大数据、物联网等新技术。这些新技术的出现促进了个人信息的收集与利用的便捷与高效。信息共享能激励创新,创造巨额财富,因此已成为推动当今社会发展的重要理念。个人信息的利用有可能侵犯数据主体的隐私和其他数据利益。即使是在世界排名靠前的互联网企业也存在着对个人信息收集使用不规范的现象。2018年1月6日,国家网信办网络安全协调局约谈支付宝(中国)网络技术有限公司、芝麻信用管理有限公司的有关负责人时指出,支付宝、芝麻信用收集使用个人信息的方式,不符合《信息安全技术个人信息安全规范》国家标准的精神。2018年3月17日,美国《纽约时报》报道称,Facebook上超过5000万用户信息数据被一家名为“剑桥分析”的公司泄露,美国联邦贸易委员会(FederalTrade Commission,简称FTC)也对此展开了调查。
有关个人数据与个人信息之间的关系,目前学界已基本达成共识,个人信息与个人数据意义相同,两者的研究对象与内容没有本质差别。我国一般采用个人信息的概念。我国《民法典》第1034条第1款规定,自然人的个人信息受法律保护。在美国,尽管诸多法律、法规和指导文件采用个人身份可识别信息(personalidentifiable information,简称PII)的概念,但美国国家标准与技术协会(National Institute of Standardsand Technology,简称NIST)采用个人信息(personal information)的概念,以避免PII在不同场合使用时产生的歧义。在欧盟,使用的是个人数据(personaldata)的概念。本文在相同的意义上使用“个人信息”和“个人数据”。在个人信息去身份化技术进入信息产业从业者的视野后,人们尝试利用去身份化制度规范信息交易行为并努力促进信息产业的发展。有学者认为,用个人信息去身份化的方式可以实现大数据时代个人隐私和其他数据利益保护与数据利用之间的平衡。
美国和欧盟在个人信息保护方面采取不同的立法模式。欧盟采取的是综合立法模式,2018年5月25日实施的《一般数据保护条例》(GeneralData Protection Regulation,简称GDPR)在继承《数据保护指令》(Data Protection Directive,简称DPD)主要内容的同时加强了对个人数据的保护。欧盟第29条数据保护工作组(Article29 Data Protection Working Party,简称第29条工作组)是欧洲数据保护委员会(European Data ProtectionBoard,简称EDPB)的前身,它根据DPD第29条设立,是欧洲独立的数据保护与隐私咨询机构,其于2007年6月20日通过的《第4/2007号意见书:个人数据的概念》(Opinion4/2007 on the Concept of Personal Data,简称《第4/2007号意见书》)和于2014年4月10日通过的《第05/2014号意见书:匿名化技术》(Opinion05/2014 on Anonymisation Techniques,简称《第05/2014号意见书》),分别对个人数据的概念和匿名化技术进行了详尽规定。尽管DPD已被GDPR所取代,但两份意见书对个人数据保护制度进行了解读,对其应用的核心要素进行了深入分析,对匿名化技术在欧盟数据保护法律框架下取得的成效和受到的限制进行了讨论,为正确理解和使用GDPR提供了重要的参考。美国采取的是分散立法模式,在联邦层面尚不存在全面的立法。在行业自治思想的指导下,各行业根据自身特点自主制定个人信息保护规则。长期以来,针对敏感信息的特殊性,美国在联邦层面制定了特别法案。例如,1974年颁布的《家庭教育权利和隐私法》(FamilyEducational Rights and Privacy Act,简称FERPA)规定了符合条件的学生享有与教育记录相关的权利,为保护学生的隐私与个人身份信息提供了依据。又如,在2002年修改了隐私规则的《健康保险流通与责任法》(HealthInsurance Portability and Accountability Act,简称HIPAA)中规定了特殊的专家标准。2020年1月1日起实施的《加利福尼亚州消费者隐私保护法》(TheCalifornia Consumer Privacy Act,简称CCPA)则对消费者隐私提供了全面的保护,被称为美国有史以来对消费者隐私保护最全面的法案。对于个人身份与其信息分离的过程,欧盟使用的是“匿名化”(anonymisation)和“假名化”(pseudonymisation)制度,美国使用的是“去身份化”(de-identification)制度。欧盟的“匿名化”“假名化”和美国的“去身份化”并无本质区别。
二、数字身份与个人信息去身份化
个人信息是与个人身份密切相关的概念。虽然不同的国家和学者对个人信息的界定存在一定的差异,但均认为个人信息是与“识别身份”有关的信息。我国《网络安全法》第76条(五)项规定,个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息;我国《民法典》第1034条第2款规定,个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,二者均强调“识别的信息”。GDPR第4条将个人数据(personaldata)定义为“与一个身份已被识别(identified)或可被识别的(identifiable)自然人(数据主体)相关的任何信息”,认为与身份已被识别或可被识别的数据主体“相关的”任何信息均为个人数据,扩大了个人信息的范围。
由于能识别个人是一项信息成为个人信息的条件,无法识别个人具体身份的信息则不属于个人信息。在朱某诉百度案中,原告朱某在使用百度搜索引擎搜索丰胸、减肥等关联词后,再次使用该搜索引擎浏览其他网站时,发现与上述关联词相关的广告弹窗。原告朱某认为被告百度公司未经其同意即利用cookie技术记录和跟踪其在百度网页上搜索的相关敏感内容,利用其个人信息进行精准广告投放,侵害了其隐私权。对于百度是否掌握可识别原告身份的个人信息这一关键问题,法院认为百度利用cookie技术收集的信息虽然具有用户个人隐私属性,但是该数据信息被匿名化处理后已不具备可识别性特征,并不能关联特定个人身份,不属于法律保护的个人信息范畴。本案的判决说明网络服务提供商或数据服务提供者通过技术自动获取的用户浏览信息数据不具有可识别性,其为用户量身定制个性化推荐服务的行为保留了用户的知情同意和自由选择权利,不对用户本人构成隐私侵权。因此,不能识别物理空间中自然人身份的信息不在个人信息保护范围内。
在物理空间中,自然人与法人的身份是相对明确的。身份与客观存在的主体存在一一对应的关系。但物理空间中的主体在网络空间中还可以有数字身份(digital identity),如在线注册的用户名、电子信箱等。数字身份由对某人或某物不同方面的属性(attribute)的描述构成,其本身就是与某人在物理空间中的身份密切相关的个人数据,如姓名、地址、出生年月、电话号码等。与物理空间中的身份不同,由于同一主体的不同属性可以构成不同的集合,因此同一主体可以有多个数字身份。例如,一个自然人的患病史和药物过敏史虽然不是其在商事交易中身份的属性,但是其在医疗机构中身份的属性。一个自然人不仅在商事交易与就医时有不同的身份,而且在不同的商事交易中也可以有不同的身份。一个物理空间中的自然人在网络空间中有多个数字身份的事实,为个人信息的去身份带来了新的挑战。一项数据即使与某自然人在物理空间中的身份相分离,也完全有可能与该自然人在网络空间中的数字身份相关联。
随着个人信息收集渠道和处理方式日益多元化,如果个人信息可识别数据主体身份的问题不能得到解决,则会在一定程度上阻碍信息产业的发展。数据产业开始采用个人信息去身份化技术将个人数据“脱敏”,尽可能使其收集的数据不再能直接识别个人,以实现个人数据利用与数据主体权益保护之间的平衡。NIST将个人信息去身份定义为由数据控制者通过改变或删除数据集中的个人身份可识别信息(PersonallyIdentifiable Information,简称PII)的方式,使数据使用者难以识别数据主体身份。由于对PII有多种不同定义,这一过程的复杂之处在于一些文件使用PII来表示可归因于个人的任何信息,或可唯一归因于特定个人的信息,而另一些文件则严格地使用PII来表示事实上正在识别的数据。在使用去身份技术从数据集合中删除识别信息后,数据就无法与特定的个人关联,使得相关数据主体的隐私和其他数据利益难以受到侵害。由于在物理空间中的同一主体在网络空间中可以有多个数字身份,因此即使既不能直接识别也不能间接识别某自然人在物理空间中的身份,也不能排除能识别其在网络空间中的身份的可能。
三、个人信息商品化与个人信息去身份化
2020年3月30日,中共中央、国务院发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》(简称《意见》)将“数据”与土地、劳动力、资本、技术并称为生产要素。生产要素是用于生产物品与劳务的投入。传统上,劳动、土地和资本是三种最重要的生产要素。在不同的社会形态中,土地、石油、信息通信技术分别成为了主要的生产要素。《意见》提出要“加快培育数据要素市场”,提升社会数据资源价值,并强调“提升社会数据资源价值。培育数字经济新产业、新业态和新模式……推动人工智能、可穿戴设备、车联网、物联网等领域数据采集标准化”。作为极具个性化的生产要素,数据已经和其他生产要素、资源和能力结合,融入价值创造的过程,在各个应用场景中发挥作用,成为推动经济高速发展的新动能。
2020年7月,联合国国际贸易法委员会(UnitedNations Commission on International Trade Law,简称UNCITRAL)第53届会议探讨了与数字经济相关的法律问题,秘书处提出了工作计划供UNCITRAL审议。预计到2025年,每年创建的数据量将从大约16万亿千兆字节增加到163万亿千兆字节。仅在欧盟,2020年数据经济的价值(即数据市场对于整体经济的影响)估计为44,770亿欧元。UNCITRAL指出,在数据经济中,数据交易沿着“数据价值链”(data value chain)进行,在这一价值链上,不同阶段交易的数据类型都不同。虽然价值链一端的原始数据单独产生价值的范围有限,但沿着价值链生成的“派生数据”(deriveddata)(即通过处理原始数据创建的数据)和“聚合数据”(aggregated data)(即由各种数据源组成的组合数据集)具有巨大潜力。
在数字社会,数据具有基础性战略资源和关键性生产要素的双重角色。从前者的角度来看,数据可以有效地落实各类创新驱动应用,助力产业转型升级,完善社会治理体系与促进治理能力现代化;从后者的角度来看,数据可以充分发挥乘数效应,充分赋能各类市场主体,催生各类新的经济形态和商业模式,激发组织变革和制度创新,让整个社会变得更加高效、公平、有序。有学者认为,当大数据信息成为新经济的智能引擎后,各行各业包括零售、医疗卫生、保险、交通、金融服务等,都在完成数据经济化。它们通过各类数据平台开发智能,使得生产、经营和管理越来越高度智能化,给新经济带来了明显的成本降低和效率提升。
个人数据是数据的重要组成部分。个人信息既具有人格特征也具有财产特征。我国有学者主张承认个人数据人格权,认为其是“隐私权的‘信息时代升级版’”,并承认作为一种新型财产权的个人数据财产权。我国《民法典》虽未将个人信息规定为一项民事权利,但却将个人信息纳入人格权编进行规范,同时承认特定的人格权益可以许可他人使用。在美国,信息化技术已使个人信息商品化达到了一定程度,出现了把个人信息看成商品的理念。芯片植入人体、广告软件及电话营销等的出现说明个人信息商品化具有广阔前景,公众对受保护的“隐私公域”(privacycommons)利益的关切不足以成为禁止个人信息商品化的理由。劳伦斯·莱斯格(Lawrence Lessig)教授提出了数据财产化(datapropertization)理论,认为通过赋予数据以财产权的方式可以强化数据经济驱动功能,使数据活动更方便和顺畅。他进一步认为,应赋予用户(事实的数据主体)以数据财产权,而不是赋予数据经营者以财产权。
另一方面,2018年生效的欧盟《非个人数据在欧盟境内自由流动框架条例》(Regulationon a Framework for the Free Flow of Non-Personal Data in the European Union)指出,非个人数据自由流动能够促进数据经济发展,增强欧盟产业竞争力,因此有必要为非个人数据建立清晰全面的法律框架。不断发展的物联网、人工智能和机器学习技术是非个人数据的主要来源,例如用于大数据分析的聚合数据集(aggregatedatasets)和匿名数据集(anonymised datasets)。技术发展使匿名数据变成个人数据成为可能,彼时应当将这些数据视为个人数据。
数据的流通和利用必须合法有序地进行。如果要对个人数据进行合法处理,除特别情况下,必须要经过数据主体的同意。告知同意原则在全球范围内的个人信息保护立法中普遍适用。例如,GDPR第6条第1款规定的六种合法处理个人信息的情形:(1)经过数据主体的同意;(2)处理是为履行合同的必要或是因在签订合同前的请求而需要对个人数据进行处理;(3)为了履行法律义务;(4)为了维护自身或者第三方的切身利益;(5)为了维护公共利益;(6)数据控制者或者第三方为了追求合理利益的对数据的必要处理,但该利益被要求保护数据主体利益的除外。但如果是政府在履行职能时,即使该利益被要求保护数据主体利益也可以对数据进行合理使用。第(2)、(3)、(4)、(5)、(6)属于例外情形,一般情况下对个人数据进行处理必须要经过数据主体的同意。如何判断数据主体是否同意,GDPR第4条第11款规定数据主体的同意有以下三个要点:一是必须依照数据主体意愿做出;二是指示(indication)必须具体明确;三是数据主体可以通过语言或者文字等说明或者明确行为做出指示。中国目前也采用知情同意规则,我国《网络安全法》第41条第1款规定,网络运营者收集和使用个人信息,应当经过被收集者同意。我国《民法典》第1035条第1款规定:“处理个人信息的,应当遵循合法、正当、必要原则,不得过度处理,并符合下列条件:(1)征得该自然人或者其监护人同意,但是法律、行政法规另有规定的除外;(2)公开处理信息的规则;(3)明示处理信息的目的、方式和范围;(4)不违反法律、行政法规的规定和双方的约定。”可见,在处理个人信息时,告知同意原则要受目的原则与必要原则的限制。不仅如此,由于民事权利(权益)不能用来对抗宪法保护的权利,同是民事权益的个人的财产权益不能用来对抗个人的人格利益,告知同意作为一种民事法律行为,不能为收集宪法保护的通信自由和通信秘密权利提供豁免,也不能通过收集个人信息获取经济利益而对抗个人的人格利益。因此,不能简单地以告知同意原则作为任何情况下不当收集个人信息的合格抗辩。
正是由于个人信息的收集与利用存在诸多限制,特别是一些国家的立法已经明确了个人信息去身份是个人信息利用之前提,明确个人信息去身份后才可为他人再利用,所以个人信息去身份能够为个人信息的商业化利用提供广阔的空间。虽然个人信息去身份化要求在一定程度上是对个人信息商业利用的限制,但个人信息去除或者改变了的只是可能识别个人在物理空间身份的标识符,个人信息仍能被用来识别其在网络空间中的身份,因此仍具有财产价值。在前述朱某诉百度案中,百度作为网络服务提供者利用Cookie技术追踪并收集用户的浏览信息,据此分析用户的个人网络行为轨迹、偏好等信息,描绘用户数据画像,以便进行定向精准广告推送。百度的算法只识别用户近期的检索内容,并向用户推荐了与检索内容相似的产品广告,而并未也无意与用户在物理空间的身份进行绑定。去身份化能为个人信息的保护与利用创造双赢局面,但我们也应该认识到,网络运营者的精准营销,并不以识别用户在物理空间的身份为前提。只要能识别用户的数字身份,网络运营者就能精准营销并侵扰用户的“私人生活安宁”。
四、欧盟个人信息匿名化和假名化制度
(一)欧盟GDPR中的个人信息匿名化和假名化制度
2018年5月25日,欧盟《一般数据保护条例》正式生效,DPD随之废除。DPD已就数据保护原则与已识别或可识别信息的关系做出了规定,GDPR则在此基础上就判断可识别的合理手段标准了更明确的规定,并对匿名信息和假名化做出了界定。GDPR序言第(26)段的内容包含了DPD序言第(26)段的三层含义:(1)数据保护原则应适用于任何有关已识别或可识别的自然人的信息;(2)为确定自然人是否可识别,应考虑所有可能使用的合理手段;(3)数据保护原则不适用于以不再可识别的方式被匿名处理的个人数据。除此之外,GDPR还增加了以下新的内容:(1)指出经过假名化的个人数据,应当被认为是可识别的自然人信息;(2)强调由控制者或其他人直接或间接地识别自然人属于确定自然人是否可识别的合理手段之一,并规定了判断识别手段是否合理的客观因素,例如识别的成本和所需的时间,处理数据时可用的技术和技术发展;(3)对数据保护原则不适用的数据类型做出更为详细的规定。
GDPR第4条(5)项规定,假名化是一种处理个人信息的方式,即不使用额外信息便不能将个人数据归属于某一特定信息主体,该处理方式需将额外信息分开存储,并对其施加技术和组织措施,以确保个人数据不归属于已识别或可识别的自然人。GDPR第32条第2款规定了个人信息假名化属于个人信息控制者、处理者实施的适当技术性和组织性措施。GDPR序言第(28)段指出,假名化可以减少信息主体面临的风险,有助于控制者和处理者履行保护信息的义务。但是,假名化并不完全排除识别的可能性,如果使用额外信息,仍然能够将其归属于特定信息主体,例如,在社交网站中,大多数人使用昵称来代替自己的真实姓名。昵称虽然是假名,但是仍然属于个人信息,可以结合IP地址或者用户绑定的手机号码识别出具体的自然人。假名只是在一定程度上可以降低个人信息的可识别性。又如,如果一个有关医疗的个人信息为:王红,36岁,艾滋病患者。那么利用假名化技术生成的个人信息可能就会变为:0000,36岁,艾滋病患者。假名化信息虽然也是个人信息,但是其比一般的个人信息的隐私和其他数据风险有所下降,有利于对个人信息的保护。
GDPR以DPD为基础在第4条“个人数据”的定义中使用了“标识符”(identifier)的概念,标识符指可以直接或者间接地识别身份的特定因素,包括一个自然人的姓名、身份证号、位置数据、在线身份识别码或者与其身体、生理、心理、经济、文化或者社会有关的特定因素。根据是否可以直接关联到个人,个人标识符分为直接标识符和间接标识符。直接标识符是指能直接识别单个主体身份的数据,间接标识符是指该标识符本身并不能识别特定个人,但可与其他数据信息聚合和联系起来识别数据的主体。从理论上讲,只有将直接标识符和间接标识符均除去,才能实现匿名化。仅除去间接标识符,只能实现假名化。一个识别符是直接识别符还是间接识别符,与判断所处的具体场景有关。例如,在一个班级里,姓名就很可能属于直接标识符,能直接识别特定个人,但是在一个城市里甚至是在一个学校里,姓名就很有可能属于间接标识符,需要结合其他信息才能识别出特定自然人。在去身份化过程中,删除直接识别符是最基本的一个步骤。在去身份化中最关键的一点在于对个人信息中间接标识符的处理。因为个人信息的直接标识符能够直接识别特定的自然人,必须全部去除,此点不存在争议,但是对于间接标识符,如果全部去除或者去除过多,虽然保护了数据主体的隐私和其他数据利益,但极大降低了个人信息的利用价值,这与去身份化的目的背道而驰。因此需对间接标识符进行隐私和其他数据风险评估,决定是否去除该间接标识符。对间接标识符的隐私和其他数据风险评估是综合性评估,评估的因素不仅要包括个人信息使用的目的,还应包括间接标识符本身的风险。
对于“可识别”(identifiable)的判断标准,欧盟考虑所有可能使用的合理手段,比如利用控制者或其他人来直接或间接地确认自然人身份。为判断所使用的手段是否可能用于识别自然人,需要考虑所有客观因素,包括对身份进行确认需要花费的金钱和时间,现有处理技术以及科技发展。2019年修订的《德国联邦数据保护法》(FederalData Protection Act,简称BDSG)并不规范所有个人数据,只有与某一特定数据主体有联系或可以联系的数据才属于法律规制的范围。BDSG强调要对数据主体的受法律保护的利益采取适当保护措施,个人数据尽早匿名化是保护措施之一。
(二)《第4/2007号意见书》和《第05/2014号意见书》中的匿名化和假名化规则
《第4/2007号意见书》指出,判断某一手段是否属于可能采取的一切合理办法,成本只是其中一个因素,并不是唯一的考虑因素。还需要考虑的因素包括:目的、信息处理的结构、信息控制者的预期好处、信息主体的利益、组织措施失效的风险、技术故障等。《第05/2014号意见书》主要阐述了几种主要的匿名化技术,第一类是随机分派(Randomization),其中包括杂讯添加(Noiseaddition)、置换(Permutation)、差分隐私(Differentialprivacy)。第二类是概括化(Generalization),包括信息聚合(Aggregation)和K-匿名(K-anonymity)、L-多样性(L-diversity)和T-相似性(T-closeness)等,并且详细说明了各种匿名化技术的原理、优缺点以及使用各项技术时的常见错误。更重要的是,《第05/2014号意见书》提出匿名化技术的三个标准:第一,是否仍然可能单独识别出个人;第二,是否仍然可能关联到个人的记录;第三,是否能够推断出与个人有关的信息。无论采取哪种匿名化技术,都必须满足以上三个标准。对于匿名化之后的信息,《第05/2014号意见书》提出信息在匿名化后仍可能存在剩余风险(residualrisks)。剩余风险产生有两方面的原因:一是有关再识别的研究不断出现新的成果;二是经过匿名化之后的信息可能可用来补充其他信息进行个体识别,从而产生新的信息保护问题。对于匿名化的判断是相对的,去匿名化之后的判断是一个动态过程,因此,需要定期评估匿名化后的信息。
《第4/2007号意见书》指出,假名化信息可以被视为可间接识别自然人的个人信息。2019年修订的《德国联邦数据保护法》也规定了假名化(pseudonymization)的定义,即在不使用附加信息的情况下确保个人数据不再归因于已识别或可识别自然人的措施,也即用标志代替姓名和其他可识别的特征,以排除数据主体被识别的可能或者使这种识别变得非常困难。《第05/2014号意见书》中指出,将假名化处理技术当成匿名化的方法是错误的,假名化仅仅能减少个人信息与信息当事人的真实身份产生联系的可能性,因此只属于安全措施的一种。
五、美国的个人信息去身份化制度
(一)概述
对于个人信息问题,美国很早就定位在立足于用户的角度,通过援引和变通隐私权保护来对其加以处理的模式。在20世纪70年代后期,美国社会开始关注信息隐私。例如,美国学者认为1984年《有线通讯政策法》(CableCommunications Policy Act)中的政策建立了信息隐私监管的模型。美国司法实践认为,应允许用户为个人信息自决,否则数据从业者无法获得收集和利用个人信息的授权。美国不存在一部统一的个人信息保护法,而是对涉及个人信息的私主体关系和公权力关系做出区别的立法对待。就私主体之间的数据使用和交易,由于美国联邦考虑到无法制订统一的法律,所以尊重行业自律规范,鼓励通过依赖和改进行业自治自我约束业者行为的办法来达到有效保护个人信息的目标。针对公权力关系领域,美国联邦最终制订了有关单行法,即在1974年出台了《隐私权法》(Privacy Act),专门规范公权力使用个人数据的行为。此外,美国将个人信息区分为敏感信息和一般信息,并对前者采取更为严格的保护制度。针对敏感信息特别保护的需要,美国联邦在特殊领域出台了一些特别法,包括1988年的《影视隐私保护法》(Video Privacy Protection Act)、1998 年《儿童在线隐私保护法》(Children’s Online Privacy Protection Act,简称COPPA)等,确立了对特殊主体敏感信息的公共保护原则。2013 年7 月1 日,FTC修订了 COPPA 规则,旨在确保父母能够全方位参与儿童的在线活动过程,并且能对任何收集儿童信息的行为有所知晓,也注重保护网络创新,以便互联网能够提供更多的在线内容供儿童使用。有关规则要求:专门针对儿童的应用软件和网址,在儿童父母未知、未获得其同意的情况下,不允许第三方通过加入插件(plug-ins)获得儿童信息。2020年全面实施的CCPA则更侧重于规范信息的商业化利用,并将与个人身份合理相关联的信息纳入个人信息范畴,明确个人信息不包括去身份化的信息。
美国州层面的数据隐私法规的数量正在不断增长,为制定全面的联邦数据隐私法提供了基线。在联邦层面,存在两种数据保护法:一是敏感信息法(“sensitiveinformation”laws),目前美国存在31部敏感信息法,主要用于需要受到更严格保护的规范特定行业的数据,例如1996年颁布的HIPAA保护的健康信息;二是渠道保护法(“protectedchannel”laws),目前美国有30部渠道保护法,例如《窃听法》(Wiretap Act)和《存储通讯法》(Stored ComminucationsAct),规范了具体的沟通渠道。有学者认为,去身份化是指防止个人标识符(Personal Identifier)与信息相联系的过程。2010年,美国NIST发布《个人可识别信息保护指南》(Guideto Protecting Personally Identifiable Information),指南规定了去身份化信息的概念,即移除或模糊化足够的个人可识别信息以至于剩余信息无法识别特定个人,以及没有合理的理由相信这些信息能被用于识别特定个人。HIPAA是在规范健康信息方面具有里程碑意义的立法。我们以HIPAA中个人信息去身份化制度及其判断标准为例论述美国的个人信息去身份制度。
HIPAA保护的个人信息范围是受保护的健康信息(ProtectedHealth Information,简称PHI)。根据HIPAA对于受保护的健康信息的定义,健康信息是否属于HIPAA的保护范围的关键在于健康信息是否可识别个人,如果该健康信息能够识别个人,则该健康信息是PHI,受HIPAA保护。HIPAA将去身份化的健康信息(de-identifiedhealth information,简称DHI)定义为不能识别个人或者没有合理的理由相信能够识别个人的健康信息。根据HIPAA隐私规则,为了在HIPAA下构成DHI,去身份化的信息必须要满足以下两种标准的要求的其中之一:(1)专家判断标准(theExpert Determination Standard);(2)安全港标准(the Safe Harbor Standard)。
(二)专家判断标准和安全港标准
HIPAA对去身份化(de-identification)做出了界定,即通过处理使得信息不能识别特定个人,或者没有合理的基础认为该信息可以被用来识别特定个人。NIST进一步从技术层面解释去身份化技术是一种可以从数据中删除个人可识别信息的工具,其并非为单一技术,而是一组可以应用于不同类型的数据,具有不同的有效性水平的算法工具。HIPAA共有五部分,对于判断健康信息是否可以被识别,HIPAA在第二部分规定了专家判断标准和安全港标准。根据其第164.514条第b款第1项的规定,专家判断标准本质上是从专家的角度判断个人信息被识别的可能性风险。对于主体来说,专家必须要具备一定的知识和经验;对于判断过程来说,专家使用相关统计和科学原则和方法,使得健康信息不具有个体识别性;对于判断结果来说,如果判定健康信息的可识别风险非常小,那么该健康信息就被认定为去身份化信息。可识别风险非常小是指对于预期接收者来说,该信息能够单独或与其他合理获得的信息结合使用来识别信息主体的风险非常小。有学者认为专家判断标准包含了三个完全没有排除再识别可能性的限定词(qualifiers):第一,识别的风险必须“非常小”(verysmall);第二,辅助信息必须“合理地”可获得(“reasonably”available);第三,再识别的风险是相对于“预期接受者”(anticipated recipient)而言,而并非任何可接触信息的对手(adversary)。
HIPAA第164.514条第b款第2项设立了安全港标准,罗列出名称、日期、电话号码等18种识别符,规定只要删除个人信息可能存在的18种标识,包括姓名、小于国家的地理分区、除年份以外与个人直接相关的日期(包括出生日期和死亡日期)、电话号码、传真号码、电子邮箱、社会安全号码、车辆登记号码、车牌号码、医疗器械标识号和序列号、URL、社保号码、IP地址、病历编号、指纹等生物标记信息、医疗保险号码、正面全脸照片、银行账户号码、身份证、驾照等证件号码以及其他可用于识别的编码或特征,且控制者并不知道该信息单独或者与其他信息结合可以识别特定自然人时,该个人信息就被认为经过身份化。安全港标准有两个要件:一个是客观要件,即必须要完全删除个人信息存在的18种识别符;一个是主观要件,要求控制者不知道信息单独或者与其他信息结合能用于识别自然人。
六、我国个人信息去身份化制度的构建
我国已存在个人信息去身份化的规范。2017年《网络安全法》第42条第1款规定:“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”“经过处理无法识别特定个人且不能复原的除外”的表述,将匿名信息排除在个人信息之外。同年《个人信息安全规范》(GB/T35273-2017)分别规定了匿名化和去标识化的定义,匿名化是指通过对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被识别,明确个人信息经匿名处理后不属于个人信息;而去标识化是指通过对个人信息的技术处理,使处理后的信息不借助额外信息无法识别个人信息主体的过程。
我国于2020年10月21日公布了《个人信息保护法(草案)》(简称《草案》)。《草案》第4条规定:“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息”。与《网络安全法》和《民法典》相比,《草案》将个人信息界定为与已识别或可识别的自然人“有关的”各种信息,而不是自然人身份的“识别信息”,明确了个人信息的范围,更有利于自然人数据权益的保护。
但是,《草案》第69条(四)项对“匿名化”的界定的规范价值非常有限,因为要达到“经过处理无法识别特定自然个人且不能复原”的标准,在技术上尚不可能,而且也无法制定具体的法律标准。我国《个人信息保护法》应以“去身份化”概念替代“匿名化”,去身份化主要去除的是直接识别或间接识别个人身份的标识符,这可以为技术处理中的法律标准提供指引。另外,从国际立法来看,身份识别亦为重要的议题。UNCITRAL正在审议关于使用和跨境承认身份管理和信任服务的条文草案,其中身份识别是其核心内容。因此,我国《个人信息保护法》使用去身份化这一概念更能清晰体现去身份化是使个人信息与个人身份解除关联的过程。我国《个人信息保护法(草案)》第69条(四)项应改为“去身份化,是指个人信息去除或改变标识符无法识别特定自然人身份的过程。”去身份后的信息仍然属于个人信息范畴,应为我国《个人信息保护法》规范的重要内容之一。
我国《个人信息保护法》应采用“假名化”的概念而不采用“去标识化”的概念。《草案》第69条(三)项对于去标识化的定义应与《个人信息安全规范》一致,将去标识化纳入安全技术措施范围以确保个人信息处理活动的安全性。《草案》中的“去标识化”实际上采用的是GDPR的假名化概念,即对个人数据处理后,在没有特定信息参考(该特定信息被安全地单独保存)的情况下,不能指向特定个人。随着个人数据或个人信息外延的扩大,标识也越来越多。采用去身份化技术,并非是去除全部的标识符,主要去除的是可识别自然人身份的标识符。个人信息流通与使用的主要风险来自身份标识符的泄露或者滥用,对于无法识别具体个人的标识符,其商业化利用的风险较低。若采用去标识化这一表述,可能会将法律规制的范畴从身份标识符扩展到各类标识符,既无法统一法律标准,也为法律适用增加困难。
目前对于个人信息何时才是被充分删除识别信息而被视为已去身份化仍存在争论。从某种意义上讲,此为去身份化标准的争论。我国《个人信息保护法》应当明确去身份化的判断标准。去身份化的判断标准应采取技术中立原则,对于采取了哪些技术手段不做限制。随着计算机技术和网络技术的发展,去身份化技术也在日益更新和发展。在法律层面,我们不应当对去身份化技术进行限定,而应给出一个利用技术进行去身份化后的结果的法律标准。不论采用何种技术,只要符合判断标准,就是合法有效的去身份化方式。我国《个人信息保护法》应规定“去身份化法律标准为第三人采取一般合理手段无法识别自然人身份”,即采用客观合理标准。仅应考虑付出的合理时间、金钱、劳动等客观情况是否能识别特定自然人,此判断原则可以作为一般标准。此外,针对特定领域的个人敏感信息,我国《个人信息保护法》还可以借鉴专家判断标准,规定“经过有相应理论知识和实务经验的专家判断个人信息经去身份化后被识别的可能性非常小时,那么该信息就应当被认定为去身份化的信息。”
我国《个人信息保护法》应明确禁止去身份化后的信息再识别。虽然个人信息去身份化存在去除直接识别符或去除间接识别符的不同情况,但都存在再识别的风险。原因在于,任何去身份化的判断标准都是客观合理标准及专家判断标准,都是相对的。如果仅规定去身份化后的个人信息可以自由利用,那么一旦技术的发展使得去身份化后的个人信息可以再次识别特定自然人并被滥用的话,去身份化制度就会变成一个规避法律的制度。笔者赞同有些学者的观点,我国《个人信息保护法》应当规定“禁止反向识别。”具体来说,可从以下三方面进行规则设计,一是去身份化信息的提供方应承诺原则上不再识别信息;二是去身份化信息的接受者应承诺不再识别,承担限制信息处理义务、向提供方的披露义务以及严格的违约责任;三是任何再识别的处理都应被视为个人信息的处理行为,承担相应的法律责任。
七、结语
数据正在成为重要的生产要素,但是个人数据的收集和利用存在侵害个人隐私和其他数据利益的巨大风险。去身份化制度要求将个人的人格与其信息分离,假名化制度降低了个人隐私和其他数据风险。去身份化制度关乎《个人信息保护法》的适用范围,在物理空间中一定程度上维护了个人信息保护与利用的平衡,但我们也应该清醒地认识到,网络服务提供商的精准营销,并不以识别用户在物理空间的身份为前提。间接标识符和再识别风险的存在,网络技术的日新月异,特别是不断增多的数字身份,都对个人数据利益的保护不断提出新的课题。
以上文章原载于《学术研究》2020年第12期,文章不代表《学术研究》立场。
篇幅原因有所删减,未经授权不得转载。